網(wǎng)頁(yè)結構化的過(guò)程 即有價(jià)值信息被保留的過(guò)程
發(fā)布時(shí)間:2013-12-07 瀏覽:352打印字號:大中小
向大家介紹過(guò)網(wǎng)頁(yè)結構化的目標,結構化的過(guò)程就是網(wǎng)站有價(jià)值信息被保留的過(guò)程,今天之所以又用這樣的標題來(lái)寫(xiě)一篇文章,其實(shí)是有目的的,是想再次的提醒網(wǎng)站seo優(yōu)化人員,搜索引擎工作原理是做好網(wǎng)站優(yōu)化工作的基礎。
現在不比前幾年,一說(shuō)網(wǎng)站優(yōu)化一說(shuō)SEO優(yōu)化,改改title,discription,keyword,發(fā)發(fā)外鏈,網(wǎng)頁(yè)的排名效果就會(huì )有。但現在僅僅指望這點(diǎn)已經(jīng)不起作用了,人人都會(huì )的東西,你再拿出來(lái)作為自己的優(yōu)勢,實(shí)際上是落伍了,再加上黑帽seo優(yōu)化的猖獗,針對百度的優(yōu)化,針對google的優(yōu)化層出不窮,搜索引擎也在不斷的調整著(zhù)算法。要做SEO優(yōu)化的前鋒戰士,根據互聯(lián)網(wǎng)的發(fā)展變化,時(shí)時(shí)保持清醒的頭腦,吸收新的知識,只有這樣網(wǎng)站的優(yōu)化效果才可能在你的控制之中。
話(huà)回正題,來(lái)簡(jiǎn)單解釋一下,網(wǎng)頁(yè)結構化的過(guò)程即有價(jià)值信息被保留的過(guò)程。明白了網(wǎng)頁(yè)結構化的目標后,就應該明白,體現網(wǎng)頁(yè)本身價(jià)值和內容的5個(gè)屬性被抽取出來(lái),即,標題(title)、錨文本(anchor text)、正文標題(content title)、正文(content)和正向鏈接(link)。對搜索引擎來(lái)說(shuō),這5個(gè)屬性就是有價(jià)值的信息(當然,也是對用戶(hù)有價(jià)值的內容)。
我們來(lái)具體看一下網(wǎng)頁(yè)結構化是如何進(jìn)行的?
網(wǎng)頁(yè)結構化的過(guò)程首先通過(guò)標簽樹(shù)進(jìn)行分析得到文本對應的標簽,然后通過(guò)投票算法確定正文及配圖等僅從HTML標簽無(wú)法判斷的網(wǎng)頁(yè)數據。以下是專(zhuān)業(yè)人士總結的兩步走:
HTML標簽樹(shù)
一、 建立html標簽樹(shù)(tag-tree)。
萬(wàn)維網(wǎng)上大多數的靜態(tài)網(wǎng)頁(yè)都以HTML網(wǎng)頁(yè)形式存在,HTML是一種標識語(yǔ)言(Markup Language),它把其描述的全部?jì)热荻及凑誋TML語(yǔ)法存放在標簽之中。為了更清楚地描述網(wǎng)頁(yè)內容的組織結構,將網(wǎng)頁(yè)中的標簽按照出現順序依次整理出來(lái)并用適當的結構記錄。由于標簽之間的嵌套關(guān)系,因此整理結果自然是一個(gè)樹(shù)狀結構,我們把整理一個(gè)網(wǎng)頁(yè)中的標簽得到的樹(shù)狀結構稱(chēng)為該網(wǎng)頁(yè)的“標簽樹(shù)”。
很顯然,查看該網(wǎng)頁(yè)的用戶(hù)看到的是相當友好的信息。而實(shí)際源文件中的那些HTML標記,如和(可以理解為用來(lái)幫助IE瀏覽器理解網(wǎng)頁(yè))等都不會(huì )實(shí)際地展示給用戶(hù)。因此搜索引擎的分析系統需要學(xué)習IE瀏覽器理解網(wǎng)頁(yè)的方式來(lái)理解網(wǎng)頁(yè),在理解過(guò)程中需要建立一個(gè)HTML標簽樹(shù)的樹(shù)形結構。通過(guò)建立標簽樹(shù),并且識別標簽所描述的文字,網(wǎng)頁(yè)結構化進(jìn)程就走出了重要的一步,能夠順利提取出了網(wǎng)頁(yè)的標題。但實(shí)際的網(wǎng)頁(yè),同一個(gè)標簽所描述的文字內容不是唯一確定的,比如廣告內容也可能放在標簽里,而這不是真正的正文,是會(huì )影響用戶(hù)的搜索體驗,所以就有了下面投票法得正文。
二、通過(guò)投票方法識別正文的文本塊,并按照深度優(yōu)先遍歷的規則組織為正文。
判斷哪個(gè)文本塊是正文采用稱(chēng)為“投票算法”的計算方法,這種方法在搜索引擎別常用。在日常生活中幾乎所有人都會(huì )有投票或選舉的經(jīng)歷,如選舉干部和通過(guò)決議需要投票,以及運動(dòng)員的一套動(dòng)作需要裁判員打分等。其基本原理在于認為大多數人的意見(jiàn)往往是正確的。大多數人的統一主觀(guān)意見(jiàn)就會(huì )變得較為客觀(guān)。雖然每個(gè)人的給出的分數是主觀(guān)產(chǎn)生的,但是這種評判的方法和結果被認為是相對客觀(guān)和可信的。正文抽取的投票算法的過(guò)程如何呢?首先搜索引擎會(huì )定義一系列的規則,然后通過(guò)這些規則為每個(gè)文本塊打分。得分最高的被認為是正文的可能性足夠大,并且可以接受。搜索引擎定的規則,也是需要通過(guò)足夠多的網(wǎng)頁(yè)進(jìn)行反饋,之后才能得到一個(gè)公正客觀(guān)的打分。由于HTML標簽的相互嵌套的特性,決定了深度優(yōu)先遍歷的順序恰好能夠組織成一個(gè)完整的正文。


